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摘 要 : 特征 选择 是 数据 挖 据 、 机 器 学 习 和 模式 识别 中 始终 面临 的 一 个 重要 问题 。 针 对 类 和 特征 分 布 不 均 时 ， 传 统 信 
息 增益 在 特征 选择 中 存在 的 选择 偏好 问题 ， 提 出 了 一 种 基于 信息 增益 率 与 随机 森林 的 特征 选择 算法 。 该 算法 结合 filter 
和 wrapper 模式 的 优点 ， 首 先 从 信息 相关 性 和 分 类 能 力 两 个 方面 对 特征 进行 综合 度量 ， 然 后 采用 序列 前 向 选择 
(sequential forward selection，SFS) 策略 对 特征 进行 选择 ， 并 以 分 类 精度 作为 评价 指标 对 特征 子 集 进 行 度量 ， 从 而 获 
取 最 优 特征 子 集 。 实 验 结 果 表 明 ， 本 文 工 法 不 仅 能 够 达到 特征 空间 降 维 的 效果 ， 而 且 能 够 有 效 提高 分 类 算法 的 分 类 性 
能 和 查 全 率 。 
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Abstract: Feature selection is one of the most important issues in data mining, machine learning and pattern recognition. Aiming 
at the problem of preference of traditional information gain algorithm in feature selection when the class and feature are unevenly 
distributed, this paper proposes a new feature selection algorithm based on information gain ratio and random forest. The 
proposed algorithm combined with the advantages of Filter and Wrapper modes. First, a comprehensive measurement of features 
is carried out from two aspects of information correlation and classification ability. Second, Sequential Forward Selection (SFS) 
strategy is used to select the features, and the classification accuracy is used as the evaluation index to measure the feature subset. 
Finally, obtain the optimal feature subset. The experimental results show that the proposed algorithm can not only achieve the 
effect of dimension reduction in feature space, but also effectively improve the classification performance and recall rate of 
classification algorithm. 
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法 通常 运行 效率 较 高 ， 但 结果 较 差 ， 而 封装 式 特征 选择 算法 则 
依赖 于 机 器 学 习 算法 的 分 类 精度 作为 特征 子 集 选择 的 评价 准则 ， 


特征 选择 是 指 在 保证 特征 集合 分 类 性 能 的 前 提 下 ， 从 一 组 ” ”该 类 算法 效率 较 低 ， 但 选择 的 特征 集合 性 能 较 优 。 
原始 特征 集合 中 选 出 具有 代表 性 的 特征 子 集 ， 以 达到 降低 特征 常见 的 特征 选择 算法 有 信息 增益 (information gain, IG)、 
空间 维 数 的 过 程 趾 。 特 征 选择 作为 数据 预 处 理 中 的 关键 步 又 ， 粗糙 集 、 神 经 网 络 、 互 信息 所 (mutual information, MI) 和 卡 方 


TI 


根据 是 否 依 赖 机 器 学 习 算 法 ， 可 以 分 为 过 滤 式 (filter) 和 封装 式 统计 等 。 其 中 ，IG 是 一 种 有 效 的 特征 选择 算法 ， 多 用 于 文本 分 
(wrapper) 两 种 。 过 滤 式 特征 选择 算法 利用 数据 的 内 在 特性 对 选 。 类 中 。 文 献 [3-6] 研 究 了 传统 IG 特征 选择 算法 在 文本 分 类 中 的 
取 的 特征 子 集 进行 评价 和 选择 ， 独 立 于 机 器 学 习 算法 ， 该 类 算 。 应用， 发 现在 类 和 特征 分 布 不 均 时 ， 传 统 信 息 增益 在 特征 选择 
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中 性 能 下 降 问 题 ， 并 从 特征 项 的 频数 以 及 基于 词 频 的 类 内 分 布 
和 类 间 分 布 等 角度 提出 改进 。 文 献 [7,8] 中 则 通过 分 析 传 统 IG 和 
CHI 算法 的 优 缺 点 ,并 将 两 种 算法 进行 结合 提出 一 种 组 合算 法 。 
文献 [9] 中 ， 罗 养 霞 等 人 针对 软件 胎记 特征 选择 问题 ， 提 出 了 一 
种 基于 层次 聚 类 与 信息 度量 的 过 滤 式 特征 选择 算法 。 该 算法 通 
过 构建 信息 增益 函数 和 惩罚 函数 ， 选 择 出 具有 高 区 分 性 和 最 小 
元 余 的 软件 胎记 特征 。 文 献 [10] 中 ， 尹 建 莉 等 人 以 IG 为 基础 研 
完 特征 的 分 类 能 力 与 其 支持 度 之 间 的 关系 ， 并 证 明了 具有 高 支 
持 度 或 低 支持 度 的 特征 具有 有 限 的 分 类 能 力 ， 从 而 为 频繁 模式 
挖掘 在 分 类 问题 中 进行 特征 选择 黄 定 了 理论 基础 。 文献 [11] 中 ， 
刘 云 等 人 针对 用 户 网 络 行为 进行 属性 推 肠 问题， 基于 IG 度量 
特征 重要 性 , 提出 了 两 种 面向 概率 性 特征 选择 算法 的 改进 策略 ， 
从 而 解决 特征 空间 高 维 问题 和 提高 算法 效率 。 文 献 [9~11] 中 虽 
然 都 使 用 了 IG 来 度量 特征 的 重要 性 与 分 类 能 力 从 而 进行 特征 
选择 ， 但 是 他 们 都 没有 考虑 IG 算法 存在 的 选择 偏好 问题 。 


条 件 粹 如 (XIY) < 五 (X) 用 来 衡量 变量 X 和 了 的 相关 性 ， 
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HXIY) = Spy)H (XY =») O) 


若 变量 X 和 了 不 相关 ， 则 瑟 (XID) = 互 (X) ; 若 变量 X 和 了 相 
关 ， 则 五 (XIY)< 五 (X)， 且 五 (X)-H(XIY) 值 越 大 ， 变 量 X 


和 了 相关 性 越 强 。 
言 息 增益 是 一 种 无 量 纲 的 度量 标准 ， 它 是 对 两 个 随机 变量 


之 间 相 关 信 息 


量 的 度量 , 其 值 越 大 说 明 变量 之 间 的 相关 性 越 强 。 


信息 增益 具有 


非 对 称 性 ， 它 能 从 非 线性 的 角度 对 特征 之 间 的 相 


关 性 进行 度量 。 


由 式 (3) 
关 性 越 强 。 其 

在 信息 系 
系统 分 类 的 贡 


文献 研究 表明 ， 传 统 的 IG 算法 在 特征 选择 方面 虽然 具有 
一 定 的 有 效 性 ， 但 是 当 数 据 量 较 大 、 数 据 中 类 和 特征 分 布 不 均 
时 ,其 本 身 的 选择 偏好 问题 会 突显 出 来 ,导致 其 性 能 急剧 下 降 ， 
而 信息 增益 率 (gain ratio, GR) 算 法 能 够 通过 添加 惩罚 因子 降低 
选择 偏好 的 发 生 。 并 且 ， 一 些 特征 选择 算法 仅 强 调 了 特征 空间 
维度 的 降低 ， 没 有 考虑 到 特征 集合 的 分 类 性 能 。 因 此 ， 本 文 提 
出 了 一 种 基于 filtertwrapper 模式 特征 选择 算法 FSIGR(feature 
selection based on importance and gain rate)， 该 算法 结合 了 filter 
和 wrapper 模式 的 优点 ， 在 保证 选择 的 特征 子 集 性 能 较 优 的 前 
提 下 ， 最 大 限度 的 提高 了 本 文 算 法 的 运行 效率 。FSIGR 算法 主 
要 分 为 两 个 阶段 : 过滤 和 封装 。 在 过 滤 阶 段 ， 首 先 使 用 GR 对 
特征 与 类 别 之 间 的 信息 相关 性 进行 度量 ， 并 删除 无 关 特 征 ， 从 
而 有 效 降 低 特征 空间 维度 ， 提 高 算法 运行 效率 ， 然 后 使 用 随机 
森林 基于 特征 分 类 能 力 对 相关 特征 进行 重要 度 测 评 ， 并 从 特征 
与 类 别 之 间 的 信息 相关 性 和 分 类 能 力 两 个 方面 对 特征 进行 综合 
度量 。 在 封装 阶段 , 首先 在 综合 度量 的 基础 上 对 特征 进行 排序 ， 
然后 使 用 SFS 策略 对 单个 特征 进行 选择 并 使 用 分 类 器 对 特征 子 
集 分 类 性 能 进行 评估 ， 以 达到 特征 空间 降 维和 提高 特征 集合 分 
类 性 能 的 效果 ， 从 而 选 出 最 优 特征 子 身 


1 ”基础 理论 


1.1 炳 与 信息 增益 率 
信息 米 作 为 信息 论 中 的 基本 概念 ， 是 用 于 度量 随机 变量 不 


7 
o 


益 存 在 偏好 选 
在 使 用 时 经 常 
即 信息 增益 率 


式 (4) 


言 奶 增益 与 录 、 条 件 灶 的 关系 为 
IG(X|IY)=H(X)-H(XI|Y) (3) 
可 以 看 出 1G(X17) 值 越 大 , 说 明 变量 了 和 了 相 
中 IG(X|IY) 表 示 变量 7 的 信息 增益 。 
统 中 ， 经 常 使 用 信息 增益 来 衡量 某 个 特征 对 信息 
献 ， 来 降低 样 例 中 噪声 的 敏感 度 。 但 由 于 信息 增 
择 分 支 较 多 的 特征 ， 导 致 过 拟 合 的 发 生 。 因 此 ， 
引入 惩罚 因子 ， 来 对 分 支 较 多 的 特征 进行 惩罚 ， 


IG(X |Y) 


可 以 看 出 , 随机 变量 7 的 信息 增益 率 与 其 信息 增 


GR(X|Y)= 


益 成 正比 ， 与 


其 信息 炉 成 反比 。 因 此 ， 当 随机 变量 了 取 值 较 多 


时 ，GR(X|7) 会 随 着 五 (7) 的 增 大 而 减 小 , 在 一 定 程度 上 降低 


了 选择 偏好 的 


发 生 。 


1.2 ”随机 森林 与 重要 度 测评 


随机 森林 
用 随机 重 采 样 
据 投票 机 制 产 
的 数据 具有 很 
重要 性 度量 可 


于 各 种 分 类 、 预 测 、 


(random forest, RF) 是 一 种 集成 学 习 算 法 ， 它 使 
技术 和 节点 随机 分 裂 技术 构建 多 棵 决策 树 ， 并 根 
生 最 后 的 结果 。 由 于 RF 对 于 存在 噪声 和 缺失 值 
好 的 鲁 棒 性 ， 并 且 具 有 较 快 的 学 习 速度 ， 其 变量 
以 作为 高 维 数据 的 特征 选择 工具 ， 因 此 近年 来 已 
特征 选择 以 及 异常 点 检测 问 


二 


基于 RF 的 特征 重要 度 测 评 有 两 种 度量 方法 ,一 种 是 基于 袋 
外 数据 (out ofbag,OOB) 检 测 误差 的 方法 ， 称 为 平均 准确 率 降 低 
(mean decrease accuracy, MDA); 另 一 种 是 基于 Gini 不 纯度 的 方 


法 ， 称 为 平均 


方法 都 是 通过 关 
重要 性 , 值 下 降 的 越 多 表示 特征 越 重要 。 其中, MDA 是 通过 添 


确定 性 的 一 种 数学 表达 ， 也 是 对 变量 本 身 或 变量 集合 所 含有 的 
平均 信息 量 的 一 种 度量 ， 通 常用 已 (X) 表示 。 设 
天 = 人 2 与 了 = 人 ?是 两 个 随机 变量 ， P(x) 
和 P(y) 为 概率 密度 函数 。 则 随机 变量 X 的 炉 豆 () 定义 为 


H(X)=-Y p(s)ogsp(%) 0) 
随机 变量 和 和 了 的 条 件 箭 定义 为 


加 随机 噪声 和 


基尼 系数 降低 (mean decrease gini, MDG)。 两 种 
引 断 特征 对 RF 分 类 性 能 的 影响 来 确定 该 特征 的 


OOB error 检测 误差 的 方法 来 对 特征 进行 度量 ， 


确定 特征 的 


重要 程度 L514。 


算法 主要 步骤 如 下 : 
设 随机 森林 包括 M 棵 分 类 回归 树 。 为 测度 第 j 个 特征 属性 


对 输出 变量 的 重要 性 ， 对 随机 森林 中 的 每 棵 分 类 树 进 行 处 理 。 


对 第 i(i=1,2,. 


a) 计算 第 i 棵 分 类 


.…M) 棵 分 类 回归 树 : 
归 树 基于 袋 外 观测 的 预测 误差 ， 记 为 


I 
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b) 随机 打 乱 袋 外 观测 在 第 j 个 特征 属性 上 的 取 值 顺序 , 重 ”特征 进行 综合 度量 ， 降 低 了 特征 的 波动 性 。 算 法 描述 如 下 : 
新 建立 第 i 棵 分 类 回归 树 并 袋 外 观测 进行 预测 。 算法 1: CEA 算法 
c) 重新 计算 第 i 棵 分 类 回归 树 的 预测 误差 , 记 为 ei 。 输入 : 数据 集 DD ， 特 征集 合 FP ={ fi=1...v}。 
6 =e; 一 @; 为 第 j 个 特征 属性 添加 噪声 导致 的 第 i 棵 分 类 回归 过 程 : 
树 预测 误差 的 变化 。 分 别 计算 特征 f 关于 类 别 特征 的 GR 值 8; , 若 8 二 0， 则 删除 特征 ff ， 
重复 上 述 步骤 ， 最 终 得 到 M 个 预测 误差 的 变化 。 F=F-{f}; 


使 用 随机 森林 计算 特征 f; 重要 度 MDA 值 ， 并 记 为 1m, ; 
运用 式 〈5) (6) 分 别 对 Ai ， 8; 进行 标准 化 ， 得 到 m, ，8i; ; 


x 


MDA' = 二 yef 即 为 第 7 个 答 人 变量 加 噪声 导致 的 随机 森林 


总 体 预测 误差 的 平均 变化 , 它 测度 了 第 j 个 输入 变量 的 


| 内 
本 


要 性 。 根据 式 (7) 计算 特征 fi 的 综合 评估 值 C; ; 
输出 : 特征 综合 评估 值 ci 。 
2.2 ”递归 删除 算法 RDA 
FSIGR 算法 主要 分 为 两 个 部 分 : 过 滤 阶段 和 封装 阶段 。 在 SFS 算法 描述 : 特征 子 集 五 从 空 集 开 始 ， 每 次 选择 一 个 特 
过 滤 阶 段 本 文 提出 一 种 综合 评估 算法 (comprehensive evaluation ，” 征 坊 加 入 特征 子 集 环 ， 使 得 特征 函数 J(F) 最 优 。SFS 算法 是 一 
algorithm，CEA) 。 在 封装 阶段 本 文 提出 一 种 递归 删除 算法 种 简单 的 贪心 算法 。 
(recursive deletion algorithm, RDA)。 首 先 采 用 CEA 算法 对 特征 RDA 算法 思想 : 根据 综合 评估 值 c; 对 特征 进行 降序 排序 ， 
行 过 滤 和 综合 性 评估 ， 以 尝试 从 不 同 的 维度 增强 对 特征 的 度 ”然后 运用 SFS 策略 遍历 特征 空间 ， 得 到 相应 的 特征 集合 
量 ， 提 高 算法 的 运行 效率 。 然 后 采用 RDA 算法 对 特征 进行 选 Ff、 请 \…、 ， 并 使 用 分 类 器 对 该 特征 集合 进行 评估 记 为 4 ， 
择 ， 可 以 在 不 牺牲 算法 精度 的 情况 下 降低 特征 的 波动 性 ， 从 而 。 若 a;<ai, 则 从 集合 正中 删除 fi 元 素 , 记录 当前 最 优 特征 子 集 
产 


2 FSIGR 算法 


nm 尝 


生 最 优 特征 子 集 。 设 数据 集 为 刀 ， 特 征 属 性 集 为 下 am 并 与 全 局 最 优 特 征 子 集 a 进行 比较 ， 若 aw < 4iom, ， 则 
={ fi|i=1...v}， 则 FSIGR 算法 流程 如 下 : amar = dwmp ， 重 复 上 述 操 作 ， 直 至 循环 结束 ; 车 全 局 特征 子 集 分 
2.1 综合 评估 算法 CEA 类 性 能 较 优 ，a 不 变 ， 重 复 上 述 操作 ， 直 至 循环 结束 ， 输 出 

首先 计算 每 个 特征 关于 类 别 特征 的 GR， 若 其 GR 等 于 0， 最 优 特 征 子 集 。 
则 表示 该 特征 和 类 别 特征 不 相关 , 并 从 特征 集合 中 删除 该 特征 。 RDA 算法 在 综合 评估 的 基础 上 , 使 用 分 类 精度 对 每 个 特征 
然后 对 数据 集中 的 特征 分 别 使 用 GR 和 MDA 算法 从 信息 相关 子 集 的 分 类 性 能 进行 评估 ， 可 以 在 不 牺牲 算法 精度 的 情况 下 降 
性 和 分 类 能 力 两 个 方面 进行 重要 度 度量 ， 最 后 对 度量 结果 分 别 ， 低 特征 子 集 的 波动 性 ， 1 除 重 要 度 较 小 的 宛 余 特征 。 每 次 遍 
进行 标准 化 处 理 。 具 体 公式 如 下 : 历 仅 删除 一 个 特征 ， 并 产生 新 的 特征 组 合 ， 扩 大 特征 子 集 搜索 
NE 而 空间 的 覆盖 范围 ， 从 而 选 出 最 小 匈 余 、 性 能 最 优 的 特征 子 集 。 
2 与 文献 [&,12] 中 的 简单 过 滤 式 方法 相 比 ， 本 文采 用 的 过 滤 + 封 装 
有 而 模式 ， 提 高 了 特征 子 集 的 分 类 性 能 。 算 法 描述 如 下 : 
Si 算法 2，RDA 算法 
其 中 : m; 和 8; 分别 表示 MDA 和 GR 算法 对 特征 fi(i=1...v) 的 输入 :数据 集 DD ,特征 集合 FP ={ fi|i=1..v}, canu=0Rev= 纪 。 
重要 度 度量 值 ,高 和 g, 则 分 别 表示 其 标准 化 后 的 值 。 并 映射 成 过 程 : 
二 本 去 _ 1 根据 特征 f; 的 综合 测评 度 c; ， 对 特征 进行 降序 排序 ; 
权重 向 量 c; =( 房 ,8 ) ， 其 中 访 和 8, 表示 向 量 c; 的 坐标 值 。 向 
2 repeat 
量 ci 的 长 度 则 表示 特征 fi 的 重要 度 。 3 ”使 用 分 类 器 对 特征 子 集 进行 评估 : 首先 对 排序 后 的 特征 子 集 采用 SFS 
最 后 根据 让 和 g, 值 计算 特征 态 的 综合 评估 值 c 。 搜索 策略 产生 相应 的 特征 子 集 『; ， 然 后 分 别 计 算 分 类 器 在 该 特征 子 集 
- 五 上 的 精确 度 w ， 其 中 i 表示 特征 子 集中 元 素 的 个 数 ; 
c= Rm +g, (7) _ 
4 flag = false 
式 (7) 可 以 看 出 ，CEA 算法 以 GR 和 MDA 为 基础 ， 通 5 for a, (i=1..v) do 
过 将 摧 和 g, 的 值 进 行 标准 化 和 向 量化 对 特征 f 进行 综合 度量 ， 6 if a<a, then 
既 考虑 了 特征 fi 与 类 别 特征 之 间 相 关 性 , 又 考虑 到 了 特征 fi 的 7 flag = true 
分 类 能 力 ， 增 强 了 对 特征 的 度量 ， 降 低 了 特征 的 波动 性 。 从 而 8 从 集合 F 中 删除 特征 i ， 并 记录 删除 特征 fi 后 分 类 器 的 精度 为 
选择 出 最 大 相关 和 最 大 分 类 能 力 的 特征 ， 并 删除 宛 余 特 征 。 与 Qiomp ; 
文献 [8] 中 的 IG 相 比 ， 本 文 使 用 GR 计算 特征 的 信息 相关 性 有 9 if anar < emp then 
效 降低 了 IG 的 选择 偏好 问题 ， 与 文献 [12] 中 MDA+MDG 的 方 10 anur = Qemp, Foes =F 
法 相 比 ， 本 文 从 特征 信息 相关 性 和 分 类 能 力 两 种 不 同 的 维度 对 11 end if 
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12 break 
13 end if 
14 end for 
15 until flag == false 达到 终止 条 件 
输出 ， 最 优 特 征 子 集 人 。s 。 
2.3 FSIGR 算法 复杂 度 分 析 
本 文 算法 的 时 间 开 销 分 为 CEA 算法 和 RDA 算法 两 个 部 
分 。 其中, 时 间 开 销 主要 体现 在 第 二 部 分 。 根 据 文献 [11] 可 知 ， 
若 训 练 数据 集 的 特征 维 数 为 m ， 训 练 样本 个 数 为 nx ， 假 设 RF 
算法 中 基 分 类 器 的 个 数 为 二 则 RF 算法 的 时 间 复杂 度 近 似 为 


Ba 


0O(krn(logn) ) ,快速 排序 平均 时 间 复杂 度 为 O(m(logm)) 。 


此 ，CEA 算法 的 最 大 渐进 时 间 复杂 度 为 O(3m+ kn(logn) )。 
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集 含有 较 多 的 缺失 数据 ， 可 以 较 好 地 验证 特征 选择 算法 在 实际 
数据 集 上 的 性 能 。 


表 1 实验 数据 集 


数据 集 Breast Cancer glass credit phishing 
分 类 数 2 6 2 2 
实例 数 699 214 1000 11055 
特征 数 9 9 20 30 
特征 类 型 nominal numeric nominal/numeric nominal 
是 否 有 缺失 值 YES NO NO NO 


3.2 ”实验 方案 
为 了 较 好 验证 本 文 算法 的 有 效 性 ,本 文 进行 两 组 对 比 实验 : 
实验 1 在 每 个 数据 集 上 ， 分 别 运用 4 种 不 同 的 特征 选择 
算法 进行 特征 选择 ， 然 后 使 用 Weka 中 的 RF 算法 对 特征 选择 
后 的 数据 集 进行 训练 ， 并 采用 10 折 交 叉 的 方法 进行 验证 ， 记 


RDA 算法 中 时 间 开 销 主要 体现 在 行 2~8。 其 外 层 循环 最 多 运行 
m 次 , 相应 的 内 层 循 环 最 多 分 别 进行 (mm 一 l,m 一 2,…,1) 次 。 基 
此 ，FSIGR 算法 渐进 最 大 时 间 复 杂 度 可 以 表示 为 
O(3m+ knn(logn) )+O(m(logm)) + oJrm(m-)] 
-ool Br*(m+5) + kn(logn) + logm |) (8) 
T(n)=0(m’) (9) 
式 (9) 可 以 看 出 , FSIGR 算法 的 最 大 时 间 复 杂 度 与 特征 


维 数 近似 平方 ， 对 高 维 数据 具有 较 好 的 处 理 能 力 且 有 具有 很 好 的 
扩展 性 。 由 于 本 文 算法 在 运行 过 程 中 临时 占用 存储 空间 大 小 与 
特征 个 数 成 线性 正比 关系 。 所 以 ， 空 间 复杂 度 可 以 表示 为 
S(n)=O(m) (10) 
与 GR、MDA 以 及 CFS 和 文献 [8] 中 的 算法 相 比 ， 本 文 算 
法 由 于 是 Filter + Wrapper 模式 ， 因 此 具有 较 高 的 时 间 复 杂 度 ， 
但 是 本 文 算法 空间 复杂 度 相 对 较 低 且 算 法 性 能 较 优 .与 WFS 算 
法 相 比 本 文 算法 总 体 复杂 度 较 低 且 算 法 性 能 较 优 ， 具 有 较 好 的 
实用 性 与 扩展 性 。 


3 ”实验 及 结果 分 析 


为 了 验证 FSIGR 算法 的 有 效 性 ， 本 文 将 选用 
CFSI1 "(Correlation-based Selection) 算 法 
WFSII8I(Wrapper Feature Selection) 算 法 以 及 文献 [8] 中 的 算法 与 
FSIGR 算法 进行 实验 对 比 。 实 验 软 硬件 环境 如 下 : 操作 系统 为 
Windows 10，CPU 为 Intel® Core™ i5-6300HQ @ 2.3 GHz， 实 
验 内 存 为 8 GB， 主 要 实验 平台 为 WEKAUN9， 语 言 为 Java。 

3.1 实验 数据 

为 了 使 实验 中 选取 的 数据 集 有 广泛 的 代表 性 ， 从 UCI 数据 
集中 选取 了 4 个 数据 集 进行 测试 ， 数 据 集 描述 如 表 1 所 示 。 这 
些 数 据 集 在 分 类 数 、 实 例 数 和 特征 维 数 方面 均 上 共有 不 同 的 特点 ， 
且 数 据 类 型 包含 了 数值 型 、 标 称 型 和 混合 型 ， 同 时 有 些 数据 


Feature 


录 、 对 比 实验 结果 。 

实验 2 为 了 进一步 验证 FSIGR 算法 对 分 类 结果 的 影响 ， 
首先 使 用 不 同 的 特征 选择 算法 分 别 对 phishing 数据 集 进行 特征 
选择 ,然后 对 选择 后 的 数据 集 分 别 对 C4.5、KNN、RF 和 REPTree 
分 类 模型 进行 训练 ， 并 采用 10 折 交 叉 的 方法 进行 验证 ， 记 录 、 


对 比 实 验 结果 。 
3.3 评判 指标 


为 了 方便 实验 对 比 ， 本 文采 用 精确 度 (accuracy)、 召 回 率 
(recall) 和 下 -Measure 作为 实验 的 评价 指标 ， 计 算 公 式 如 下 : 
TP+TN 

精确 度 : = 11 

引 精 确 度 DT TP HINT FPHEN 人” 
TP 

b) 召 回 率 : 1 = 12 

人 TIPHEN (2 
2* accuracy* recall 

c)F-measure: 震 (13) 


accuracy + recall 
其 中 : TP (truepositive): 被 正确 分 类 为 正 例 的 样本 数 ; FP (false 
positive): 被 错误 分 类 为 正 例 的 样本 数 ; TN (true negative): 被 
正确 分 类 为 反例 的 样本 数 ，FN (false negative): 被 错误 分 类 为 
反例 的 样本 数 。 
3.4 结果 分 析 

实验 中 ,CFS 算法 和 WFS 算法 分 别 采 用 最 佳 优先 (best firstb 
BF) 和 贪 林 算法 (greedy stepwise, GS) 两 种 搜索 策略 对 特征 进行 
选择 ; FSIGR 算法 则 采用 SFS 策略 对 特征 进行 选择 。 具 体 实验 
结果 如 

实验 1 图 1 中 对 GR、MDA 和 FSIGR 三 种 特征 选择 算法 
的 性 能 进行 研究 。 图 中 纵 坐 标 表示 RF 分 类 模型 的 分 类 精度 。 
在 实验 中 ,根据 文献 [8] 设 置 冰 值 为 0.01 对 GR 和 MDA 排序 后 
的 特征 进行 选择 。 由 图 1 可 以 看 出 ,在 4 个 数据 集中 使 用 FSIGR 
算法 产生 的 特征 子 集 对 RF 分 类 模型 进行 训练 分 类 精度 最 高 ， 
明显 优 于 GR 和 MDA 方法。 因为 在 FSIGR 算法 Filter 阶段 通 
过 将 GR 和 MDA 的 值 进行 标准 化 和 向 量化 对 特征 fi 进行 综合 
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度量 ， 既 考虑 了 特征 与 类 别 特征 之 间 相 关 性 ， 又 考虑 到 了 特 
征 天 的 分 类 能 力 , 增强 了 对 特征 的 度量 , 降低 了 特征 的 波动 性 。 
从 而 选择 出 最 大 相关 和 最 大 分 类 能 力 的 特征 。 在 Wrapper 阶段 


又 以 分 类 精度 为 评价 指标 选取 分 类 性 能 最 优 的 特征 子 集 ， 因 此 
其 性 能 优 于 GR 和 MDA 算法 。 
100 
mm GR 
Wm MDA 
和 5 mm FSIGR 
90 
2 85 
并 
村 
雯 80 
a 
75 
7 
各 breast cancer glass credit phishing 
数据 集 


图 1 


RF 算法 在 不 同 特征 集合 上 的 分 类 精度 


表 2 中 列 出 了 CFS、WFS、 文 献 [8] 和 FSIGR 算法 在 不 同 
实验 数据 集 上 的 性 能 比较 ， 其 中 SF 表示 选 出 的 特征 集合 的 大 
小 ，Acc 表示 RF 算法 在 该 特征 集合 上 的 算法 精度 ,“ 一 ”表示 
该 算法 在 相应 数据 集 上 没有 进行 实验 。 

表 2 可 以 看 出 ，RF 分 类 模型 基于 FSIGR 算法 在 4 个 数 
据 集 分 类 精度 分 别 为 0.966, 0.809, 0.782, 0.974， 均 优 于 CFS， 

WFS 和 文献 [8] 算 法 在 4 个 数据 集 上 的 表现 ,证 明了 本 文 FSIGR 
算法 具有 较 优 的 分 类 性 能 ; 在 降 维 性 能 方面 ，FSIGR 算法 在 
glass 数据 集 上 优 于 其 他 算法 ， 但 在 Breast Cancer, credit 和 
phishing 数据 集 上 ， 略 低 于 其 他 算法 。 因 为 本 文 FSIGR 算法 采 
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WFS 特征 选择 算法 和 本 文 Filter + Wrapper 模式 的 FSIGR 算法 


降 维 性 能 稍 弱 ， 但 由 实验 1 的 结果 可 知 ， 本 文 WFS 和 FSIGR 
算法 具有 较 优 的 分 类 性 能 且 FSIGR 算法 均 优 于 其 他 算法 。 
表 3 特征 选择 结果 
:特征 选择 算法 特征 子 集 
WFS(BF) F={fli=1...30,iz5,9,11,12,16,18,19,22, 23} 
WFS(GS) F={fli=1...30,iz5,9,11,12,16,18,19,21,22,23,30} 

FSIGR F={fli=1...30,iz 4,10,11,19,20,23,28,30} 
WEFS(BF) F={fli=1...30,iz10} 

WFS(GS) F={fli=1...30,iz 4,10,18,19,21,23,30} 

FSIGR 下 ={ 用 =1...30,iz1119.21.23,30} 

WFS(BF) F={fli=1...30,iz 4,5} 
WFS(GS) F={fli=1...30,iz 3} 

FSIGR F={fli=1...30,iz4,11,18%,19,21,23,30} 
WEFS(BF) F={fli=1...30,iz#4,9,10,16,18,19,21,23,27,30} 
WFS(GS) F={fli=1...30,i#4,5,11,16,21} 

FSIGR F={fli=1...30,iz 4,11,30} 

CEs F={fli=6,7,8,13,14,15,6,26,28} 
文献 [8] 算 法 FE={ fli=1,2,6,7,8,9,13,14,15,16,24,25,26,27,28,29,30} 
注 : 五 表示 特征 子 集 ，_; 表示 特征 子 集 中 的 元 素 ，i 为 该 元 素 在 源 数据 集 
中 的 下 标 。 
98 


图 2 C4.5、 


mm GR 
ma MDA 
ma FSIGR 


Random Forest 
分 类 评估 器 


C4.5 KNN REPTree 


KNN、RF 和 REPTree 四 种 不 同 的 分 类 算法 基于 GR、 
MDA 和 FSIGR 特征 选择 算法 的 精确 度 


图 2 中 对 比 了 在 C4.5、KNN、RF 和 REPTree 四 种 不 同 的 


分 类 模型 下 


GR、MDA 和 FSIGR 三 种 特征 选择 算法 的 性 能 。 


中 横 坐 标 表 示 不 同 的 分 类 模型 ， 纵 坐标 表示 相应 分 类 模型 的 分 


用 Filter + Wrapper 模式 进行 特征 选择 ， 并 从 全 局 与 局 部 对 特征 
子 集 进行 评价 选择 分 类 性 能 较 优 的 特征 子 集 。 所 以 ， 在 此 过 程 2 
中 会 牺牲 一 定 的 降 维 性 能 。 结 果 表 明 ， 本 文 提出 的 算法 在 不 同 
类 型 的 数据 集 上 均 有 较 好 的 表现 ， 能 在 提高 特征 集合 分 类 性 能 让 
的 情况 下 对 数据 进行 降 维 ， 有 具有 和 鲁 棒 性 。 
表 2 不 同 特征 选择 算法 的 性 能 比较 
_ 数据 集 
特征 选择 算法 
Breast Cancer glass credit phishing 
SF 9 8 3 9 
CFS 
Acc 0.964 0.799 0.702 0.948 
SF 之 7 3 29 
WFS 
Acc 0.947 0.776 0.74 0.973 
SF 17 
文献 [8] 算 法 
Acc 0.968 
SF 了 7 14 23 
FSIGR 
Acc 0.966 0.809 ”0.782 0.974 
实验 2 表 3 中 列 出 了 在 phishing 数据 集 上 使 用 不 同 特征 


类 精度 。 从 图 2 中 可 以 看 出 ， 


C4.5、KNN、RF 和 REPTree 四 


种 分 类 模型 在 FSIGR 算法 上 的 分 类 精度 最 高 。 这 是 因为 FSIGR 


选择 算法 在 不 同 分 类 分 类 器 下 的 特征 选择 结果 。 由 表 中 数据 可 
以 看 出 ，CFS 和 文献 [8] 算 法 为 作为 Filter 模式 特征 选择 算法 其 
村 征 选择 结果 与 分 类 器 无 关 且 降 维 性 能 较 优 。Wrapper 模式 的 


特征 选择 算法 能 够 从 信息 相关 性 和 分 类 能 力 两 个 方面 对 特征 进 
行 综合 度量 ， 从 而 选 出 相关 性 强 、 元 余 度 低 的 最 优 特征 子 集 ， 


提高 了 分 类 模型 的 分 类 精度 。 本 实验 证 明了 FSIGR 特征 选择 算 
法 能 有 效 降低 特征 子 集 的 维度 选 出 关键 特征 ， 从 而 提高 分 类 模 


型 的 准确 率 。 


201804.02168v1 


国 
国 


XIV 


china 


ChinaXiv 合 作 期 二 
录用 稿 周 传 华 ， 等 : 基于 filtertwrapper 模式 的 特征 选择 算法 
图 3 中 研究 了 在 C4.5、KNN、RF 和 REPTree 四 种 不 同 的 根据 特征 之 间或 者 特征 与 类 别 之 间 的 相应 关系 对 特征 进行 选择 ， 
分 类 模型 下 CFS、WFS、 文 献 [8] 以 及 FSIGR 四 种 特征 选择 华 未 考虑 特征 子 集 整 体 的 分 类 性 能 。 而 FSIGR 算法 结合 Filter 
法 性 能 。 图 中 折线 表示 同一 种 特征 选择 算法 基于 不 同 分 类 模型 。 和 Wrapper 模式 从 单个 特征 与 特征 子 集 两 个 方面 对 特征 子 集 进 
选择 的 特征 子 集 分 类 精度 变化 趋势 。 行 选择 ， 从 而 选 出 相关 性 强 、 元 余 度 低 和 分 类 能 力 较 优 的 特征 
子 集 。 与 WFS 算法 相 比 ， 本 文 算法 首先 使 用 Filter 模式 对 特征 


—®- CFS ee 和 a 2 a a 
一 - WFS(BF) 进行 筛选 ， 然 后 再 以 分 类 精度 为 指标 对 特征 子 集 进 行 选择 ， 这 


-和 ~ WFS(GS) 


a Refl8] 样 可 以 首先 排除 部 分 元 余 特 征 ， 然 后 在 进行 特征 选择 ， 降 低 了 


一 全 FSIGR 


部 分 时 间 开 销 ， 所 以 本 文 FSIGR 算法 综合 性 能 较 优 。 
通过 图 3 中 可 以 发 现 ，RF 在 4 种 特征 选择 算法 上 的 分 类 
性 能 均 优 于 C4.5、KNN 和 REPTree 算法 , 那 是 因为 RF 为 集成 
学 习 算 法 ， 它 能 够 通过 综合 不 同 基 分 类 器 的 分 类 结果 增强 集成 
学 习 算 法 的 容错 性 和 泛 化 能 力 ， 从 而 达到 提高 分 类 精度 ， 分 类 
~、 召回 率 降低 分 类 误差 的 目的 .因此 在 FSIGR 算法 的 Filter 阶段 ， 
C45 KNN Random Forest REPTree 采用 了 RF 算法 的 MDA 对 特征 的 分 类 能 力 进行 测评 ， 增 强 了 
ee 对 特征 的 度量 ， 降 低 了 特征 的 波动 性 。 
图 3 C4.5、KNN、RF 和 REPTree 四 种 不 同 的 分 类 算法 基于 WFS、 

5 描述 实验 2 详细 结果 。 其 中 , 表 4 从 平均 绝对 误差 

FSIGR 等 特征 选择 算法 的 精确 度 人 二 。 ye 

和 召回 率 两 个 方面 对 4 种 特征 选择 算法 的 实验 结果 进行 对 比 。 

图 3 可 以 看 出 ， 基 于 C4.5、KNN、RF 和 REPTree 四 种 表 4 可 以 看 出 ， 本 文 算法 的 综合 性 能 均 优 于 其 他 算法 ， 基 于 
不 同 的 基 分 类 模型 ,本文 FSIGR 算法 均 有 具有 较 优 的 表现 ， 其 分 。 本 文 算法 的 分 类 模型 具有 较 低 的 预测 误差 和 较 高 的 查 全 率 。 表 
类 性 能 明显 优 于 CFS 和 文献 [8] 算 法 。 其 中 , 在 C4.5 和 KNN 分 5 从 F-measure 和 AUC (area under ROC curve) 两 个 方面 对 4 
类 模型 上 FSIGR 与 WFS 算法 表现 相似 ， 在 RF 和 REPTree 分 ”种 特征 选择 算法 的 实验 结果 进行 对 比 。 由 表 5 可 以 看 出 ， 基 于 
类 模型 上 FSIGR 算法 性 能 明显 优 于 WFS 等 算法 。 因 为 与 CFS ” 本文 算法 的 分 类 模型 其 F-Measure 和 AUC 值 较 大 ,分 类 能 力 较 
和 文献 [8] 算 法 相 比 ， 后 两 者 为 Filter 模式 特征 选择 算法 ， 直 接 ” 强 ， 即 本 文 算法 选择 的 特征 子 集 较 优 。 
表 4 基于 WFS、FSIGR 等 特征 选择 算法 的 实验 结果 
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C4.5 KNN Random Forest REPTree 
特征 选择 算法 搜索 算法 
平均 绝对 误差 ”recall ”平均 绝对 误差 ”recall ”平均 绝对 误差 ”recall ”平均 绝对 误差 recall 
CFS (BF/GS) 0.087 0.943 0.075 0.945 0.075 0.948 0.087 0.941 
BF 0.060 0.961 0.032 0.972 0.050 0.972 0.068 0.952 
se GS 0.060 0.960 0.033 0.971 0.051 0.973 0.067 0.952 
文献 [8] 算 法 BF 0.061 0.957 0.039 0.965 0.049 0.968 0.067 0.951 
FSIGR SFS 0.057 0.961 0.033 0.972 0.048 0.973 0.064 0.954 
表 5 基于 WFS、FSIGR 等 特征 选择 算法 的 实验 结果 2 
C4.5 KNN Random Forest REPTree 
特征 选择 算法 搜索 算法 
F-Socre AUC F-Socre AUC F-Socre AUC F-Socre AUC 
CFS (BF/GS) 0.943 0.979 0.945 0.988 0.948 0.988 0.941 0.983 
BF 0.961 0.984 0.972 0.990 0.972 0.996 0.952 0.985 
be GS 0.960 0.984 0.971 0.990 0.973 0.996 0.952 0.983 
文献 [8] 算 法 BF 0.957 0.983 0.965 0.989 0.968 0.995 0.951 0.984 
FSIGR SFS 0.960 0.985 0.972 0.990 0.973 0.996 0.954 0.984 
4 ”结束 语 RF 算法 从 信息 相关 性 和 分 类 能 力 两 个 方面 对 特征 综合 度量 .在 
封装 阶段 ， 根 据 综 合 度量 对 特征 进行 重新 排序 ， 并 采用 序列 前 


本 文 提 出 了 一 种 filter + wrapper 模式 的 特征 选择 算法 向 搜索 策略 和 分 类 模型 的 分 类 精度 作为 评价 标准 寻找 最 优 特征 
FSIGR 算法 ， 在 过 滤 阶 段 该 算法 首先 以 GR 为 度量 标准 对 特征 子 集 。 通 过 FSIGR 算法 和 GR、MDA 算法 的 对 比 实验 可 以 看 
进行 选择 ， 从 而 选择 出 相关 性 强 的 特征 ， 然 后 基于 GR 算法 和 出 ,FSIGR 算法 的 性 能 明显 优 于 两 种 基本 的 算法 ,证 明了 FSIGR 
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算法 的 有 效 性 。 通 过 FSIGR 算法 和 CFS、WFS 以 及 文献 [8] 算 
法 的 对 比 实 验 结果 表明 ，FSIGR 算法 在 特征 空间 降 维和 提高 
类 精度 方面 均 有 较 好 的 表现 , 并 且 FSIGR 算法 的 性 能 明显 优 于 
文 


Pie 


六 献 [8] 中 的 算法 和 CFS 算法 。 通 过 对 FSIGR 算法 从 时 间 和 空 
间 两 个 方面 进行 复杂 度 分 析 发 现 ，FSIGR 算法 对 高 维 数 据 有 较 
好 的 处 理 能 力 ， 具 有 较 好 的 实用 性 和 扩展 性 。 基 于 以 上 叙述 ， 
证 明了 本 文 FSIGR 算法 能 够 在 保证 特征 子 集 分 类 性 能 的 前 提 
下 ， 达 到 特征 空间 降 维 的 效果 ， 具 有 
于 FSIGR 算法 中 仅 考 虑 到 不 同 
少 的 考虑 特征 之 间 的 相关 性 。 因 此 , 在 FSIGR 算法 中 考虑 两 两 
特征 之 间 的 相关 性 ， 是 下 一 步 工作 的 重点 。 
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